Ещё совсем недавно казалось, что только гиганты вроде OpenAI и Google могут создавать передовые модели искусственного интеллекта. Однако китайская компания DeepSeek доказала обратное, ворвавшись на сцену с мощной open-source моделью, которая была создана без миллиардных инвестиций и уже получила поддержку таких гигантов, как Huawei, Oppo и Vivo. Крупные игроки, включая Microsoft, Alibaba и Tencent, также поспешили интегрировать DeepSeek в свои экосистемы.

Теперь компания делает следующий шаг — в сторону самообучающегося ИИ. В сотрудничестве с учёными из Цинхуа опубликован препринт статьи, в которой описывается инновационный метод self-principled critique tuning (SPCT). Эта технология основана на так называемом генеративном моделировании наград (GRM) и предлагает новый способ, при котором ИИ самостоятельно оценивает и улучшает свои ответы через цикл “судья-награда”.

Это может стать важным поворотом в развитии ИИ: не просто обучать модели на заранее размеченных данных, а позволить им саморазвиваться и самооцениваться, повышая точность и эффективность.